Online Reasoning

Online reasoning は、推論をあらかじめ完結させてから応答するのではなく、入力や中間結果の到着に応じて逐次的に更新していく見方を表す補助概念です。この語は interleaved thinking のような特定ベンダーの機能名ではありませんが、「途中で考える」方式を最も一般化した記述として有効です。ReAct では観測に応じて reasoning が更新され、Self-Notes では読解の進行に応じてノートが追加され、interleaved reasoning では生成の進行に応じて思考が挿入されます。ここで共通しているのは、推論が一度で完了する静的な前処理ではなく、処理の進行に伴って動的に更新される点です。したがって、online reasoning はこれら複数の interleaving 系概念を一段抽象化してまとめる際に便利な見方です。これは厳密な定訳付きの単独理論名というより、複数の枠組みを束ねる説明概念として使うのが適切です。

参考：

ReAct: Synergizing Reasoning and Acting in Language Models https://arxiv.org/abs/2210.03629

Learning to Reason and Memorize with Self-Notes https://arxiv.org/abs/2305.00833

Interleaved Reasoning for Large Language Models via Reinforcement Learning https://arxiv.org/abs/2505.19640